電影的數據記錄了觀眾的喜好及其對某些事物的態度。從相關網站(例如IMDb和Rotten Tomatoes)收集電影信息,將有助於電影行業中的數據分析和數據挖掘。一般而言,在某些情況下可以使用抓取的數據:
分析目標受眾的特徵
獲取公眾意見以預測未來趨勢
幫助廣告推銷
根據需要,我們還可以對電影數據做更多的事情。為了幫助您完成數據收集,本文將介紹如何從IMDb恐怖電影列表中抓取信息,包括導演信息,演員陣容以及其他一些重要信息。
在這種情況下,我將通過以下鏈接向您展示如何從IMDb中抓取134,555部恐怖電影信息:
https://www.imdb.com/search/title/?genres=horror&start=51&explore=title_type,genres&ref_=adv_nxt
該網絡抓取工具的目標是找到在恐怖電影列表中列出的電影,獲取導演信息,演員陣容以及其他一些重要信息。
在開始之前,請先在計算機上下載Octoparse V7以進行後續操作。此外,強烈建議學習使用Octoparse的基本邏輯。
讓我們開始吧!
步驟1:在Octoparse內置瀏覽器中打開目標網站。
只需在高級模式下單擊“ +任務”。
然後,將URL粘貼到框中,然後單擊“ 保存URL ” 按鈕。
步驟2:單擊以構建一個任務來抓取電影信息。
在Octoparse內置瀏覽器中打開RUL之後,我們可以繼續建立分頁和循環項以獲取數據。
只需在內置瀏覽器中單擊“ next >> ” 元素,然後在“操作提示” 上單擊“ 循環單擊所選元素” 。
我們可以看到分頁已在工作流程中建立。
如果您想讓Octoparse更精確地識別您選擇的元素,則只需修改XPath即可。如下圖所示,Octoparse生成的XPath是 //DIV[@class='nav']/DIV[2]/A[2]. We’d better change it to //a[contains(text(), "Next »")].
在這種情況下,我們需要從影片列表中抓取數據,也就是說,我們可以直接創建一個循環項來提取數據。
選擇瀏覽器上的“版塊” 之一,Octoparse可以檢測到所選博客中的所有數據字段。
然後,選擇“ 選擇所有子元素” 。
Octoparse正在選擇所有需要的數據,並以紅色突出顯示。選擇“ 全選” 繼續。
最後,我們選擇“ 在循環中提取數據” 。
現在,我們已經在Octoparse中完成了分頁和循環項。我們可以在左側看到任務的工作流程,並在右側看到數據。
步驟3:在Octoparse中清除數據。
提取數據之前,我們' d更好的清除數據,以做出最後的結果更好。只需單擊即可刪除不需要的字段,然後重命名所需的描述。
步驟4:提取資料
只需單擊“提取數據”即可在本地獲取數據。
由於本地提取利用您自己的計算機資源,例如CPU,互聯網速度,因此其工作速度比使用Octoparse雲提取要慢。
無論如何,在創建抓取工具後,您需要做的就是等待並在大約2小時內獲取數據,超過100,000行電影數據。
我想通過以上步驟,每個人,包括沒有編程背景的人,都可以使用Octoparse V7輕鬆構建影片搜尋器,並獲得超過100,000行的影片信息。但是,這不是最簡單的方法。使用Octoparse V8可能會容易得多:
總而言之,通過數據抓取,我們可以在線獲取電影數據,且不會涉及法律問題。
除數據外,更重要的是關於您所學的技能,這對於進行市場研究,保持自我更新以及許多其他事情非常有用。